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摘要 : [目的 /意义 ] 数据 科学 作为 一 个 融合 诸多 领域 的 新 兴 交 又 学 科 正 在 快速 形成 。 从 数据 科学 招聘 的 
公告 信息 中 ,抽取 出 相应 的 实体 知识 不 仅 有 助 于 从 市 场 的 角度 了 解数 据 科 学 的 发 展 动态 ,而 且 有 助 于 改进 数据 
科学 教学 的 内 容 。[ 方 法 /过 程 ] 基 于 各 大 招聘 网 站 职位 招聘 公告 ,结合 情报 学 的 数据 获取 、 标 注 和 组 织 方法 , 构 
建 数据 科学 招聘 语料库 并 从 中 抽取 相应 的 实体 进行 分 析 与 研究 。[ 结果 /结论 ] 在 搜集 到 的 11 000 篇 经 过 标注 
的 职位 招聘 公告 语 料 的 基础 上 ,基于 Bi-LSTM-CRF、CRF 和 Bi-LSTM 模型 ,对 数据 科学 招聘 实体 的 抽取 任务 进 
行 性 能 的 对 比 ,确定 最 终 的 数据 科学 招聘 实体 自动 抽取 模型 ,设计 数据 科学 招聘 实体 自动 抽取 平台 ,并 构建 数 


怖 科学 招聘 实体 网 络 。 
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条 件 随机 场 ” 深 度 学 习 
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数据 科学 作为 一 个 融合 了 计算 机 科学 ,统计 学 、 应 
用 悦 计 算数 学 .人 工 智 能 、 系 统 科学 、 社 会 科学 ,心理 
学 \ 经 济 学 等 诸多 领域 的 新 兴 交 叉 学 科 正 在 快速 崛起 。 
在 这 一 发 展 趋势 下 ,与 数据 科学 相关 的 数据 科学 家 、 数 
据 纹 析 师 ,数据 标注 师 和 数据 工程 师 等 职位 大 量 涌现 。 
获 吸 与 数据 科学 相关 的 招聘 职位 要 求 ,并 从 非 结构 化 
的 昭 聘 信息 中 ,通过 机 器 学 习 的 策略 从 中 抽取 职位 名 
称 人 朗 求 专业 、 学 历 要求 .经验 要 求 . 能 力 水 平 .所 掌握 
的 编程 语言 和 算法 等 实体 ,对 此 进行 分 析 与 研究 一 方 
面 有 助 于 数据 科学 工作 者 掌握 市 场 对 数据 科学 人 才 的 
具体 需要 ,从 而 有 针对 性 地 提升 自身 应 对 数据 科学 工 
作 的 能 力 ; 另 一 方面 有 益 于 数据 科学 的 教育 者 拟定 数 
据 科 学 的 教育 体系 和 人 才 培 养 的 目标 。 

目前 ,对 于 英文 实体 的 抽取 ,国外 的 相关 研究 工作 
取得 了 较为 满意 的 效果 。 英 文 实体 主要 涵盖 了 人 名 、 
地 名 \ 机 构 名 、 时 间 、 数 字 、 货 币 等 类 别 ,而 英语 实体 抽 
取 主 要 是 通过 基于 规则 、 统 计 和 机 器 学 习 的 策略 完成 
对 上 述 几 类 实体 识别 的 任务 。M.，M.， Bikal 等 "基于 


隐 马 尔 科 夫 模型 设计 了 抽取 人 名 、 地 名 和 组 织 名 的 方 
法 且 取 得 了 很 好 的 效果 。 相 较 于 基于 规则 和 简单 的 统 
计 方法 来 说 , 隐 马 尔 科 夫 模 型 能 够 充分 利用 实体 右边 
界 的 特征 ,该 模型 的 这 一 特征 确保 了 实体 识别 的 精准 
率 。A. L，Berger 等 ”基于 最 大 粹 模型 提出 了 实际 使 
用 效果 较为 优秀 的 抽取 方法 。 由 于 在 构建 最 大 粒 实 体 
识别 模型 的 过 程 中 可 以 选择 跟 序 列 有 关 的 特征 ,从 而 
确保 了 基于 最 大 炳 构建 的 实体 模型 无 论 是 在 精准 率 还 
是 召回 率 上 均 优 于 隐 马 尔 科 夫 模型 。J，Lafferty 等 提 
出 了 条 件 随机 场 模型 2 ,这 一 模型 结合 了 隐 马 尔 科 夫 
模型 与 最 大 业 模 型 的 优点 ,确保 了 在 实体 这 一 识别 任 
务 上 的 性 能 是 最 为 突出 的 。M. C. Callum 等 所 将 CRF 
模型 应 用 到 实体 自动 抽取 中 且 验 证 了 CRF 模型 的 识 
别 效果 要 优 于 隐 马 尔 科 夫 模型 和 最 大 粒 模 型 。 因 为 条 
件 随机 场 模型 不 仅 能 够 利用 实体 左右 边界 的 特征 ,而 
且 可 以 把 任何 有 益 于 实体 识别 的 特征 融入 到 条 件 随 机 
场 模 型 当中 ,从 而 确保 了 所 构建 的 实体 识别 模型 的 整 
体 性 能 较为 突出 。 中 文句 子 与 英文 句子 在 词法 与 句法 
上 的 差异 ,使 得 中 文 实体 抽取 的 难度 更 大 。 加 之 国内 
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对 实体 抽取 的 研究 起 步 较 晚 ,因此 中 文 实体 抽取 的 研 
究 较 英文 相对 落后 。 张 小 衡 等 中 基于 人 工 规则 提出 了 
一 种 抽取 高 校 名 称 的 方法 。 这 一 研究 是 典型 的 基于 规 
则 策略 下 的 实体 识别 探究 ,虽然 性 能 整体 不 高 ,但 对 于 
高 校 名 称 的 规则 分 布 进行 了 比较 细致 的 分 析 。Y. 
Zhang 等 “基于 记忆 的 学 习 算法 ,开发 出 识别 命名 实体 
及 其 之 间 关系 的 系统 。 从 统计 学 的 角度 ,这 一 研究 有 
机 地 利用 了 实体 左右 边界 的 特征 ,从 研究 方法 上 看 具 
有 一 定 的 借鉴 价值 和 意义 。 郑 着 强 等 "将 义 原作 为 特 
征 加 入 到 最 大 炳 模型 中 以 提高 其 抽取 性 能 。 这 一 研究 
不 仅 发 挥 了 最 大 炉 可 以 利用 实体 边界 特征 的 属性 ,而 
目 把 语义 知识 融入 到 模型 的 构建 当中 ,从 领域 知识 利 
用 的 角度 分 析 , 这 一 研究 具有 一 定 的 创新 性 。 陈 字 
等 包 尝 试用 基于 神经 网 络 的 方法 对 实体 及 实体 之 间 的 
关系 进行 抽取 。 虽 然 神经 网 络 能 够 充分 挖 气 实 体 的 特 
很 得 这 一 研究 的 识别 效果 有 很 大 的 提升 空间 。 邵 发 
等 加 利用 消除 歧义 的 方法 ,通过 利用 HowNet 和 贝 叶 其 
人 抽取 实体 ,从 而 解决 一 词 多 义 的 问题 ,从 方法 论 的 
角 凡 来 看 ,这 一 研究 把 实体 识别 的 任务 转化 成 了 分 类 
的 问题 ,并 且 把 深层 次 的 语义 知识 融入 到 了 分 类 模型 
当 听 ,具有 较 强 的 创新 性 。 许 华 等 "基于 分 词 . 词 性 
标 轩 的 医疗 语 料 , 利 用 规则 的 方法 ,完成 了 对 医疗 文本 
中 实体 的 抽取 且 整 体 性 能 较 高 。 这 一 研究 从 所 使 用 的 
方 深 上 看 没有 太 大 的 创新 性 ,但 对 医疗 这 一 领域 化 的 
袜 捕 进行 识别 具有 领域 知识 挖 气 上 的 创新 性 。 基 于 深 
度 学习 进 行 实 体 抽取 的 研究 是 近 两 年 兴起 的 探究 方 
法 xz 比较 有 代表 性 的 研究 如 下 : 冯 蕴 天 和 张 宏 军 等 吕 
在 珊 人 研究 的 基础 上 利用 深度 信念 网 络 对 神经 网 络 语 
言 模型 进行 了 扩展 ,提出 了 一 种 可 用 于 命名 实体 识别 
的 深层 架构 。 这 一 结构 框架 对 于 实体 的 识别 不 仅 具有 
宏观 上 的 指导 性 ,而 且 具 有 方法 论 上 的 引导 性 。C. 


Dong 和 J. Zhang 等 号 首次 将 基于 字符 级 的 BILSTM - 


CRF 神经 结构 用 于 中 文 命名 实体 识别 ,在 第 三 届 
SIGHAN Bakeoff MSRA 数据 集 上 取得 不 错 的 效果 。 这 
一 研究 验证 了 BILSTM -CRF 组 合 的 优势 ,并 且 为 基于 
字 的 汉语 实体 的 识别 莫 定 了 坚实 的 基础 。 朱 丹 浩 和 杨 
蕾 等 基于 RNN 方法 ,重新 定义 了 机 构 名 标注 的 输 
入 和 输出 ,提出 了 汉字 级 别 的 循环 网 络 标 注 模 型 。 这 
一 研究 首次 把 深度 学 习 应 用 在 了 机 构 实 体 的 识别 上 ， 
具有 方法 论 上 的 借鉴 意义 和 价值 。 

针对 中 国 的 具体 情况 ,结合 数据 科学 的 发 展 ,国内 
的 相关 研究 者 对 数据 科学 的 研究 情况 进行 了 多 个 角度 
的 探究 ,具体 如 下 : 叶 认 和 马 费 成 指出 了 数据 科学 


与 信息 科学 在 理论 逻辑 和 技术 方法 上 一 脉 相 承 ,揭示 
了 数据 科学 继续 维持 信息 科学 基本 原理 。 这 一 人 研究 从 
理论 的 角度 探究 了 数据 科学 与 信息 科学 的 关系 ,为 数 
据 科 学 的 发 展 提供 了 坚实 的 理论 支撑 。 杨 京 和 王 效 岳 
等 “分 析 了 大 数据 给 数据 科学 分 析 工 具 带 来 的 挑战 ， 
介绍 了 应 运 而 生 的 大 数据 分 析 工 具 及 其 发 展 趋 势 。 这 
一 人 研究 从 大 数据 的 角度 对 数据 科学 分 析 工 具 的 开发 指 
明了 方向 。 周 傲 英 和 钱 卫 宁 等 "论述 了 数据 科学 与 
工程 这 一 新 兴 交 义学 科 的 发 展 必然 性 ,阐述 了 其 学 科 
村 点 、 知 识 体系 和 建设 思路 。 以 工程 为 切入 点 ,这 一 研 
究 丰 定 了 数据 科学 的 内 涵 和 外 延 。 朝 乐 门 和 卢 小 
宾 ' ”提出 数据 科学 将 成 为 信息 科学 领域 知识 的 新 理 
论 基 础 ,并 指出 了 大 数据 时 代 信 息 科 学 研究 的 新 课题 。 
这 一 研究 把 数据 科学 放 到 了 信息 科学 这 一 大 的 框架 
下 ,厘清 了 数据 科学 和 信息 科学 的 关系 。 王 斩 芬 和 谢 
清 楠 等 “利用 Web of Science 核心 合集 数据 库 从 数据 
科学 的 内 涵 界 定 与 应 用 方向 对 国外 有 关 数 据 科学 的 文 
献 进行 计量 分 析 ,基于 文献 计量 学 ,这 一 研究 系统 而 全 
面 地 总 结 了 数据 科学 国内 外 的 研究 情况 ,为 了 解 和 掌 
握 数据 科学 的 发 展 趋势 提供 了 第 一 手 的 资料 ,为 我 
今后 的 研究 提供 了 参考 与 借鉴 。 

在 上 述 相 关 研 究 的 基础 上 ,面向 国内 的 主要 招聘 
网 站 ,通过 设 定 与 数据 科学 相关 的 关键 词 , 抓 取 29 460 
篇 职位 招聘 公告 ,并 在 人 工 标注 11 000 篇 数据 科学 招 
聘 公 告 实体 的 基础 上 ,构建 中 国 数据 科学 招聘 语料库 。 
基于 该 语料库 ,通过 测试 条 件 随机 场 和 深度 学 习 的 相 
关 模 型 ,构建 面向 数据 科学 招聘 公告 的 实体 自动 抽取 
模型 ,并 搭建 相应 的 平台 ,更 进一步 地 基于 复杂 网 络 对 
相关 的 实体 分 布 情况 进行 分 析 。 


2 ”数据 科学 招聘 语 料 简介 及 实体 界定 
在 对 智联 招聘 .51job 等 网 站 上 面 有 关 数 据 科学 的 


招聘 职位 数据 进行 抓 取 、 清 洗 、 标 注 和 组 织 的 基础 上 ， 
本 文 构 建 了 数据 科学 职位 招聘 语料库 ,具体 流程 如 下 : 

(1) 数 据 科学 职位 招聘 数据 的 采集 内 容 主 要 来 自 
招聘 网 站 上 有 关 数 据 科学 的 职位 信息 。 基 于 2017 年 3 
月 至 2017 年 8 月 间 的 招聘 信息 ,本 文 利用 Python 开发 
的 网 络 候 虫 工具 抓 取 了 29 460 条 职位 招聘 公告 。 

(2) 基 于 所 抓 取 的 数据 ,选取 招聘 职位 信息 这 一 
个 字段 ,提取 出 29 460 条 招聘 职位 的 描述 信息 。 一 方 
面 通过 去 重 算法 ,完成 对 29 460 条 招聘 信息 的 自动 去 
重 , 共 获 得 24 460 条 去 重 后 的 招聘 信息 ;为 一 方面 ,在 
招聘 描述 信息 里 面 ,有 一 些 为 英语 招聘 信息 ,由 于 本 文 
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主要 所 涉及 到 的 是 汉语 招聘 的 信息 ,对 这 一 部 分 英文 
的 招聘 信息 也 进行 了 清理 ,最 后 得 到 23 154 条 数据 科 
学 招聘 信息 。 

(3) 本 文 所 谓 的 数据 科学 招聘 实体 主要 是 指 招聘 
详细 信息 语 料 中 涉及 到 的 职位 名 称 \ 学 历 要 求 .经验 要 
求 能力 水 平和 相关 软件 等 实体 内 容 , 比 如 县 体 的 职位 
名 称 有 “软件 工程 师 .数据 分 析 师 数据库 工程 师 ” 等 ， 
具体 学 历 要 求 为 “本 科 及 以 上 学 历 . 大 专 及 以 上 学 历 ” 
等 ,具体 相关 软件 为 “MYSQL、Python Java Spark SAS、 
SPSS.R" 等 。 数 据 科 学 招聘 实体 这 一 概念 是 借鉴 实体 
这 一 概念 的 内 涵 和 外 延 ,结合 数据 科学 招聘 这 一 特定 
领域 而 确定 的 。 在 确定 的 上 述 5 类 数据 科学 实体 基础 
上 ,制定 相应 的 标注 规则 ,由 55 名 标注 人 员 完 成 了 对 
其 申 11 000 篇 数据 科学 招聘 职位 文本 内 容 实 体 的 标 
1 所 示 : 

大 学 本 科 或 以 上 了 学 历 ， 【数理 统 计 】、【 信 息 技术 】、【 信 息 系统 ] 等 专业 优先 考虑 
gj 人] ， 具 了 好 的 为】， 4 年 扫 人 让 分 术 ] [分 类、 


: 【回归 】、【 关 联 规则 】 和 【时 间 序 列 】 等 【数据 分 析 】 和 【挖掘 】 方 法 ，5、 掌 
下 SAS】、【SPSS】、【R】、【Python] 等 至 少 一 种 数据 分 析 软件 ，6、 融 悉 【 数 据 库 】 


| 
3 


Ap 
aD) 
y 

€ ] 


机 器 学 习 模 型 简介 
ON 在 本 节 中 ,本 文 对 条 件 随机 场 (CRF) 模型 长 期 短 
期 记忆 网 络 (LSTM) 模型 和 LSTM -CRF 模型 进行 了 简 


CRF 模型 

-二 条 件 随机 场 是 用 于 解决 序列 标注 问题 较 新 的 一 种 
模 丽 ,是 指 在 给 定 一 组 需要 标记 的 观察 序列 的 条 件 下 ， 
计算 整个 观察 序列 状态 标记 的 联合 条 件 概率 分 布 的 无 
向 图 模型 ,其 拓扑 结构 如 图 2 所 示 : 


yi yz2 Yi Yn-1 yn 
Xi1 X> Xi Xn-1 Xn 


图 2 线性 链 CRFs 模型 的 拓扑 结构 


设 x= jx ,Xs，,… ,Xx,_1,X,| 表示 被 观察 到 的 输入 数 
据 序列 ,y = |y,,y;，,…,y,-1,y,| 表示 有 限 状 态 集 合 ,其 
中 每 个 状态 对 应 于 一 个 标记 。 在 给 定 输入 序列 x 的 条 
件 下 ,对 于 参数 入 = | 入 ,和 ,和 ,入 ,| 的 线性 链 CRFs 
的 状态 序列 y 的 条 件 概 率 为 : 
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1 a 
p(ylx,\) = exp Zi Nt (yi ,yi,X,1)) 


式 (1) 
z= > ,exp( DISNt (yi,y ,x,i)) 式 (2) 
其 中 z 为 归 一 化 因子 ,表示 所 有 可 能 的 状态 序列 
的 得 分 ,确保 所 有 可 能 状态 序列 的 条 件 概率 之 和 为 1。 
f(y;_1;yi,X,i) 是 一 个 统一 形式 的 特征 函数 ,通常 为 二 
值 表 征 函 数 ; 和 ; 是 通过 模型 对 训练 数据 进行 训练 之 和 
获得 的 相应 特征 函数 的 权重 。 在 构建 数据 科学 实体 识 
别 模 型 的 过 程 中 ,这 一 模型 不 仅 可 以 利用 实体 的 左边 
界 特征 ,而 且 可 以 利用 实体 的 右边 界 特征 ,从 而 确保 了 
所 构建 模型 的 整体 性 能 要 优 于 隐 马 尔 科 夫 模型 和 最 大 
炳 模型 。 
3.2 LSTM 模型 
循环 神经 网 络 (recurrent neural network , RNN ) 针 
对 前 馈 神经 网 络 处 理 连续 的 序列 输入 没有 反馈 机 制 的 
问题 ,对 各 个 隐藏 层 进 行 了 关联 。 将 输入 集 | x6, x， 
0 作为 一 个 输入 向 量 序列 并 返回 另 一 个 
向 量 序列 输出 集 {yo,7 77 。 在 ! 时 刻 时 ， 
RNN 隐藏 层 和 输出 层 的 计算 公式 为 : 
h =f(CUx +Wh ，) 式 (3) 
y= 8g(Vh.,) 式 (4) 
在 公式 (3) 和 (4) 中 ,x 为 输入 层 , 为 隐藏 层 ,y 为 
输出 层 。U、W 和 V 分 别 是 RNN 中 输入 层 到 隐藏 层 、 
前 后 两 个 隐藏 层 之 间 及 隐藏 层 到 输出 层 的 权 值 ,ff 和 g 
是 非 线性 激活 函数 sigmoid 和 softmax 激活 函数 。 虽 然 
在 理论 上 RNN 可 以 学 习 长 期 的 依赖 关系 ,但 实际 效果 
并 不 良好 ,长 期 短期 记忆 网 络 (long short -term memory ， 
LSTM) 正 是 为 了 解决 这 一 问题 而 提出 的 。LSTM 通过 
结合 一 个 记忆 单元 (memory cell) ,并 引入 门 (gate ) 控 
制 器 来 控制 历史 信息 的 保留 和 丢弃 。LSTM 记忆 单元 
的 计算 公式 如 下 : 


ii=o(W.h,_, +U,x,+b,) 式 (5) 
f =o(Wh,_, + Ux,+b,) 式 (6) 
o,=o(W,h, ,+U,x,+b,) 式 (7) 


c=fiOc, ,+iOtanh(Wh ,+Ux+b) 式 (8) 
h =o, Otanh( ce,) 式 (9) 
其 中 的 激活 函数 o 一 般 选 取 sigmoid 函数 , 〇 是 表 
示 点 乘 运算 。 公 式 (5)、(6) 和 (7) 中 的 i,f, 和 o, 分 别 
表示 的 是 t 时 刻 的 输入 控制 门 、 遗 忘 控制 门 和 输出 控 
制 门 。 公 式 (8) 中 的 ce, 表示 的 是 t 时 刻 记忆 单元 向 量 。 
U,UU.,U, 分 别 是 输入 序列 | xo ,zx | 
和 各 个 控制 门 之 间 的 连接 权重 矩阵 ,并 且 是 控制 门 和 
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隐藏 状态 h 之 间 的 连接 权重 矩阵 。 由 于 本 研究 是 按 字 
为 最 小 单位 进行 的 数据 科学 命名 实体 识别 ,在 模型 训 
练 过 程 中 ,不 仅 需 要 考虑 当前 字 与 前 文 的 联系 ,还 要 结 
合 使 用 后 文 的 信息 进行 预测 和 序列 标注 任务 。 而 双向 
LSTM(Bi-LSTM) 拥 有 两 个 相反 方向 的 并 行 层 ,能 够 存 
储 来 自 两 个 方向 的 信息 。 因 此 ,本 文选 择 双向 LSTM 
( Bi-LSTM ) 来 处 理 实体 标注 的 任务 。 
3.3 ”LSTM-CRF 模型 

尽管 通过 LSTM 网 络 可 以 获得 较 好 的 实体 标注 效 


果 , 但 是 当 输 出 标签 之 间 存 在 较 强 的 依赖 关系 时 ， 
LSTM 模型 的 性 能 将 会 受到 影响 。 特 别 是 在 实际 的 序 
列 标注 任务 时 ,由 于 神经 网 络 结构 对 数据 的 依赖 很 大 ， 
数据 量 的 大 小 和 质量 也 会 严重 影响 模型 训练 的 效果 。 
为 了 解决 这 个 问题 ,本 研究 采用 了 LSTM -CRF 模型 。 
LSTM-CRF 模型 不 仅 保留 了 LSTM 能 够 同时 考虑 数据 
科学 实体 的 上 下 文 信息 的 特性 ,还 能 够 通过 CRF 层 考 
虑 输出 独立 标签 之 间 前 后 的 依赖 关系 ,图 3 所 示 是 用 
于 实体 识别 的 LSTM-CRF 模型 结构 : 


E-et 


学 


9 
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输出 标记 层 园 四 Let 
Sn 

条 件 随机 场 层 CRF a CRF a CRF 条 
_ ET 
这 @—0 0 © 
条 神经 网 络 @. i i 1 
电 @-@-@-@- 
ce 字 向 量 映射 层 一 | 一- 一 
二 Re | A | nde a | ee | i 
oy 
A 图 3 
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== 在 LSTM-CRF 模型 下 ,输出 的 将 不 再 是 相互 独立 
签 ,而 是 最 佳 的 标签 序列 。 对 于 输入 :X = 
ER ,我 们 可 以 定义 A 为 状态 转移 矩阵 ,P 为 LSTM 
输 外 的 概率 矩阵 。 其 中 A 表示 时 序 上 从 第 i 个 状态 
转移 到 第 j 个 状态 的 概率 ,P;,; 指 观察 输入 序列 中 的 第 i 
个 数据 科学 实体 字 被 标记 为 第 j 个 标签 的 概率 。 通 过 
求 得 最 大 的 s(X,y) , 即 可 得 到 最 佳 的 输出 标签 序列 ， 
然后 使 用 动态 规划 算法 进行 计算 ,得 出 最 优 路 径 并 进 
行 标注 。 对 于 待 预测 的 标签 序列 y = {y ,ys,…,y,| 的 
预测 输出 计算 公式 为 : 


XI1，X2 ， 


SCX) EAs Fi: 式 (10) 
4 ”实体 识别 实验 


4.1 语 料 的 预 处 理 
基于 人 工 标 注 的 数据 科学 招聘 职位 中 的 实体 真实 
的 长 度 情 况 的 描述 ,本 文 确定 在 不 同 的 模型 当中 使 用 


4 字 位 的 标注 集 ,标注 集 用 R 来 表示 ,具体 为 R = 


et 为 数据 科学 实体 的 中 间 字 ,EE-et 为 数据 科学 实体 的 


B- 
et, 1-et, E-et, 01 ,B-et 表示 数据 科学 实体 的 初始 字 ,I- 


i 
-@- 
3 
1@- 


LSTM -CRF 模型 的 主要 架构 


结束 字 ,0 表示 数据 科学 实体 外 字 , 如 果 数 据 科学 实体 
的 长 度 超过 了 3 ,就 用 I-et 表示 扩展 字 。 本 文通 过 编写 
Python 程序 ,结合 语 料 中 数据 科学 实体 的 “【 】” 标 记 ， 
自动 对 所 有 语 料 进 行 基于 字 的 训练 和 测试 的 标注 。 
由 于 在 基于 深度 学 习 训 练 实体 识别 过 程 中 需要 使 
用 到 CPU ,因此 对 本 文 的 实验 环境 介绍 如 下 :CPU:I- 
tel(R) Core(TM) i5 4590 CPU @ 3.30GHz 内 存 :16GB 
DDR4 ;GPU :NVIDIA Quadro K1200 显存 :4GB GDDR5; 
操作 系统 :ubuntu 16. 04。 服 务 器 上 高 性 能 的 CPU 可 
以 支持 大 规模 的 并 行 运算 。 
4.2 实体 识别 判定 标准 

本 文 对 数据 科学 实体 识别 模型 性 能 的 评价 主要 采 


用 3 个 指标 来 衡量 :准确 率 (Pprecision ) 召回 率 (re- 
call) 了 上 值 (F-measure) 。 具 体 计 算 公 式 如 下 : 
准确 率 :P = 了 二 x100% 式 (11) 
召回 率 :P = 全 x100% 式 (12) 
调和 平均 值 :P= 和 < 人 x 100% 式 (13》 
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其 中 ,A 表示 正确 识别 数据 科学 实体 个 数 ,B 表示 
错误 识别 数据 科学 实体 个 数 ,C 表示 未 识别 出 来 的 数 
据 科学 实体 个 数 。 需 要 说 明 的 是 ,正确 率 (accuracy ) 的 
高 低 无 法 准确 反映 模型 的 好 坏 , 于 是 本 文 没有 使 用 此 
评价 指标 。 

4.3 实体 识别 的 效果 分 析 

本 文 基于 人 工 标注 的 11 000 篇 数据 科学 招聘 语 
料 使 用 CRF .Bi-LSTM 和 Bi-LSTM -CRF 模型 进行 数据 
科学 实体 的 识别 。 在 具体 的 实验 中 使 用 十 次 交叉 验证 
的 方法 来 测试 所 构建 模型 的 性 能 ,将 11 000 篇 语 料 文 
档 分 别 按照 9:1 的 比例 分 为 训练 语 料 和 测试 语 料 进行 
实验 。 测 试 结果 如 表 1- 表 3 所 示 : 

表 1 基于 CRF 模型 的 数据 科学 实体 识别 性 能 比较 


测试 编号 准确 率 ( % ) 召回 率 (% ) F 值 (%) 
86.21% 85.25% 85.73% 
85.94% 85.58% 85.76% 
85.89% 85.45% 85.67% 
85.72% 86.06% 85. 89% 
86.25% 85.65% 85.95% 
85.76% 85.50% 85.63% 
85.18% 85.62% 85.40% 
85. 80% 85.92% 85.86% 
85.18% 86.37% 85.77% 
85.36% 85.59% 85.47% 
85.73% 85.70% 85.71% 


sc 从 表 1 可 以 看 出 ,基于 条 件 随机 场 模型 ,所 构建 的 
以 守 为 单位 的 数据 科学 实体 识别 模型 的 下 平均 值 达到 
子 至 .71% 。 这 一 下 值 从 一 个 侧面 说 明了 条 件 随机 场 
模 囊 能 够 充分 利用 数据 科学 实体 的 左右 边界 字 的 特征 
并 这 把 这 一 特征 融入 到 模型 的 构建 当中 。 从 具体 识别 
出 来 的 实体 结果 来 看 ,专业 和 名称 ` 软 件 和 模型 等 名 称 识 
别 的 整体 效果 较 好 ,但 对 于 边界 界定 容易 模糊 的 实体 
则 容易 识别 错误 或 者 没有 识别 ,比如 “对 专业 [数据 的 
分 析 ] 及 做 好 竞争 对 手 [ 数 据 的 采集 】 ,统计 评估 与 分 
析 , 并 [编制 报表 】” 这 一 识别 任务 中 ,本 来 要 识别 的 实 
体 为 分析" 采集 “统计 ”评估 ”“ 分 析 " 等 表示 能 力 
的 实体 ,但 由 于 “数据 "的 出 现 频次 过 高 ,被 作为 特征 
概率 融入 到 了 条 件 随机 场 模型 当中 ,造成 了 左边 界 识 
别 的 错误 。 

从 表 2 中 可 以 看 出 ,由 于 双向 LSTM( Bi-LSTM ) 拥 
有 两 个 相反 方向 的 并 行 层 特征 ,这 一 特征 确保 了 数据 
科学 实体 识别 的 精准 率 。 与 CRF 所 构建 的 模型 进行 
对 比 可 以 看 出 ,基于 Bi-LSTM 所 构建 的 数据 科学 实体 
模型 在 精准 率 上 平均 提升 了 1.43% ,在 一 定 程度 上 表 
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表 2 基于 BiLSTML 模型 的 数据 科学 实体 识别 性 能 比较 


测试 编号 准确 率 ( % ) 召回 率 ( % ) F 值 (%) 
1 87.21% 85.36% 86.28% 
2 86.93% 86.68% 86. 80% 
3 85.99% 87.85% 86.91% 
4 87.77% 88.09% 87.93% 
3 87.26% 88.67% 87.96% 
6 87.77% 86. 59% 87.18% 
87.19% 87.64% 87.41% 
8 87.89% 86.93% 87.41% 
9 86.19% 87.38% 86.78% 
10 87.39% 85.79% 86.58% 
均值 87.16% 87.10% 87.13% 


明了 这 一 模型 的 性 能 要 优 于 CRF。 在 具体 识别 的 例子 
上 ,对 于 “对 专业 数据 [分 析 】 及 做 好 竞争 对 手数 据 的 
【采集 】` 统 计 、` 评 估 与 [分析 】, 并 【编制 报表 】" 这 一 表 
述 中 的 实体 的 识别 ,就 精准 地 把 “数据 ”与 分析” 和 
“采集 ”进行 了 分 割 , 但 在 这 一 表述 中 ,对 于 “统计 ”和 
“评估 ”这 两 个 实体 还 是 未 能 识别 出 来 。 
表 3 基于 BiLSTM-CRF 模型 的 数据 科学 
实体 识别 性 能 比较 


测试 编号 准确 率 ( % ) 召回 率 (%) F 值 (%) 
1 91.35% 90. 80% 91.07% 
2 91.31% 90.99% 91.15% 
3 90.92% 91.69% 91.31% 
4 91.18% 91.79% 91.49% 
3 91.16% 91.25% 91.21% 
6 90.91% 91.33 呈 91.12% 
7 90.63% 90.30% 90.47% 
8 91.47% 90.98% 91.22% 
9 91.20% 91.24% 91.22% 
10 90.21% 91.38% 90.79% 
均值 91.03% 91.18% 91.10% 


从 表 3 可 以 看 出 ,基于 Bi-LSTM -CRF 模型 的 数据 
科学 实体 识别 性 能 整体 较为 良好 ,各 组 的 识别 准确 率 
和 召回 率 均 超过 了 90% ,从 一 定 程度 上 充分 反映 出 了 
这 一 组 合 的 模型 不 仅 保留 了 LSTM 能 够 同时 考虑 上 下 
文 信息 的 特性 ,还 能 够 通过 CRF 层 考 虑 输出 独立 标签 
之 间 前 后 的 依赖 关系 ,从 而 切实 地 确保 了 数据 科学 识 
别 模型 的 精准 率 和 召回 率 。 具 体 识 别 的 例子 体现 如 
下 ,从 “对 专业 数据 [分 析 】 及 做 好 竞争 对 手数 据 的 [ 采 
集 】 【统计 】、【 评 佑 ]】 与 [分 析 】, 并 [编制 报表 】” 这 一 
表述 的 识别 结果 来 看 ,这 一 模型 不 仅 精准 地 把 “数据 ” 
与 “分 析 ” 和 “采集 ”进行 了 切 分 ,而 且 对 “统计 ”和 “ 评 
佑 ”这 两 个 CRF 和 Bi-LSTM 模型 没有 识别 出 来 的 实体 
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精准 地 进行 了 识别 。Bi-LSTM -CRF 模型 的 下 值 最 低 为 
90.47% ,最 高 达到 91.49% ,平均 下 值 为 91.10%。 从 
整体 上 优 于 Bi-LSTM ,其 下 值 高 于 Bi-LSTM 3.97% ,这 
从 一 定 程度 上 说 明了 在 融入 CRF 模型 获取 的 特征 基 
础 上 ,确实 能 够 有 效 地 提高 整个 序列 化 模型 的 性 能 。 
相 比 CRF ,Bi-LSTM-CRF 的 平均 F 值 高 出 了 5.39% ,这 
充分 说 明 ,在 字 这 一 层级 上 ,深度 学 习 模 型 能 够 充分 发 
挥 端 到 端的 模型 训练 和 大 量 语 料 的 场景 特征 。 深 度 学 
习 模 型 的 性 能 从 Bi-LSTM 所 构建 的 模型 性 能 平均 比 
CRF 高 出 1. 42% 也 直接 说 明了 其 自身 的 优越 性 。 总 
之 ,仅仅 基于 字 这 一 汉语 的 基本 构成 元 素 ,在 无 任何 人 
为 特征 添加 的 情况 下 ,所 构建 的 Bi-LSTM-CRF 实体 识 
别 模型 达到 了 可 以 应 用 的 水 平 ,这 一 探究 对 于 其 他 类 
亿 抒 列 化 实体 识别 的 研究 任务 具有 一 定 程度 上 的 借鉴 
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4 双 | 搭建 面向 数据 科学 招聘 的 实体 自动 抽取 平台 
CO 〇 数据 科学 招聘 实体 自动 抽取 实验 涉及 步 又 较为 复 

# 数据 科学 招聘 实体 语 料 需 要 生成 Bi-LSTM -CRF 
可 并 别 的 以 整 行 形式 存在 的 tokens 并 制作 相应 的 特征 
模 徐 , 在 对 语 料 进行 训练 和 测试 后 ,还 需要 计算 出 其 精 

P .召回 率 R 以 及 调和 平均 值 F 这 3 个 评价 指标 。 
激 忆 便于 实验 操作 ,帮助 读者 理解 ,本 文 调用 基于 Bi- 
LSNCcRF 构建 最 优 数据 科学 招聘 实体 自动 抽取 模 
型 性 | 对 实验 设计 了 可 视 化 操作 系统 ,并 在 此 基础 上 构 
姥 政 据 科学 招聘 实体 自动 抽取 平台 。 

斧 数 据 科 学 招聘 实体 自动 抽取 平台 使 用 Python 语言 

的 第 三 方 工具 包 PyQt 进行 开发 。PyQt 是 由 P. Thomp- 
sof 开发 的 Python 语言 的 图 形 用 户 界面 (GUI) 编程 解 
决 方案 , 它 是 Python 编程 语言 和 Qt 库 的 成 功 融合 。 
PyQt 实现 了 一 个 Python 模块 集 。 它 有 超过 300 类 ,将 
近 6 000 个 函数 和 方法 。 它 是 一 个 多 平台 的 工具 包 ， 
可 以 运行 在 所 有 主要 操作 系统 上 ,包括 UNIX ,Windows 
和 Mac。 相 对 于 wxPython ,Tkinter 等 图 形 库 ,PyQt 功能 
强大 ,可 以 使 用 “Designer” 或 “Qt Creator” 很 方便 地 设 
计 区 文件 ,从 而 简化 了 UI 的 设计 布局 等 工作 。 

该 平台 主要 由 两 部 分 组 成 ,第 一 部 分 是 数据 采集 
与 清洗 功能 ,包括 网 页 候 虫 与 脏 数 据 清洗 ;第 二 部 分 是 
实体 抽取 与 统计 功能 ,包括 选择 语料库 .抽取 实体 与 统 
计 词 频 。 

使 用 数据 采集 与 清洗 功能 时 ,首先 点 击 下 拉 框 控 
件 选择 所 需 招聘 公告 的 发 布 时 间 范围 ,可 以 选择 的 有 ， 
24 小 时 内 、 近 3 天 、 近 1 周 . 近 1 月 和 全 部 时 间 。 时 间 
范围 选取 完毕 后 , 点击“ 获取 数据 "按钮 ,平台 自动 启 


用 网 页 疏 虫 抓 取 招聘 网 站 上 的 相关 职位 招聘 公告 ,并 
在 提示 框 内 显示 抓 取 进 度 , 见 图 4。 公 告 抓 取 完毕 后 ， 
平台 自动 清洗 数据 ,并 将 全 部 语 料 保存 在 指定 路 径 。 
使 用 实体 抽取 与 统计 功能 时 ,点 击 “ 浏 览 "按钮 ， 
即 可 在 文件 夹 浏览 视图 中 选择 语料库 (语料库 根 目 
录 ) ,系统 自动 读 取 语 料 库 内 全 部 文档 路 径 。 点 击 " 抽 
取 实 体 "按钮 后 ,平台 对 语料库 内 全 部 语 料 进行 预 处 理 
并 按 Bi-LSTM -CRF 可 识别 的 以 整 行 形式 存在 的 tokens 
格式 要 求生 成 “test” 命名 的 文本 文档 ,继而 自动 调用 
windows 环境 下 命令 提示 符 (cmd) 程序 ,调用 数据 科学 
招聘 实体 自动 抽取 模型 对 test 文档 进行 数据 科学 招聘 
实体 自动 抽取 ,并 在 “信息 提示 框 ”内 显示 所 抽取 全 部 
数据 科学 招聘 实体 , 见 图 5。 点 击 “ 统 计 词 频 ” 按 钮 后 ， 
平台 对 基于 数据 科学 招聘 实体 自动 抽取 模型 抽取 的 实 
体 进行 频次 统计 ,并 在 “信息 提示 框 ”内 按 降序 排列 显 
示 数 据 科学 实体 频次 , 见 图 6。 
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正在 统计 词 频 ， 请 稍 后 …… ] 
实体 词 频 降序 排列 为 : 
销 59 


统计 词 频 


6 ”数据 科学 实体 自动 抽取 平台 统计 词 频 功能 截图 


5 ”数据 科学 招聘 实体 的 网 络 分 析 
< 于 在 基于 11 000 篇 数据 科学 招聘 语料库 所 构建 的 
抽取 模型 基础 上 ,通过 数据 科学 招聘 的 


自动 抽取 平台 ,完成 了 对 12 154 篇 通过 网 络 让 中 
所 抓 取 的 数据 科学 招聘 新 语 料 中 实体 的 抽取 ,经 过 人 
了 和 助 校对 ,形成 了 23 154 篇 数据 科学 招聘 实体 的 抽 
ee 
现 林 文 发 现 数据 科学 招聘 实体 之 间 存在 一 定 的 连通 
收 \ 定 规模 的 数据 科学 招聘 实体 会 构成 一 个 有 效 的 
网 给 。 根 据 上 述 描 述 , 本文 构建 了 数据 科学 招聘 实体 


人 S 妈 所 科学 招聘 实体 网 络 的 一 个 主要 功能 是 能 够 提 
供 数 据 科 学 职位 的 主要 关注 点 , 即 通 过 数据 科学 招聘 
实 优 网 络 的 节点 ,发 现 数 据 科学 职位 所 共同 关注 的 实 
体 ,而 该 实体 主要 是 通过 数据 科学 招聘 实体 网 络 中 的 
中 介 度 (centrality betweenness ) 获取 的 。 

中 介 度 (betweenness centrality ) 的 概念 最 早 用 于 分 
析 社 会 网 络 中 个 体 的 重要 性 ,由 L，C，Freeman'" 在 
1979 年 提出 。 他 认为 ,如 果 一 个 节点 处 于 多 对 节点 之 
间 ,该 节点 的 度 (degree) 可 能 会 较 低 。 也 就 是 说 ,如 果 
只 从 度 的 角度 来 看 ,会 误 以 为 这 个 节点 在 网 络 中 没有 
占据 显著 地 位 。 但 是 ,这 个 度 较 低 的 节点 可 能 具有 控 
制 网 络 内 部 通信 的 重要 作用 ,是 网 络 中 重要 的 节点 。 
因此 ,中 介 度 能 够 反映 一 个 节点 在 网 络 中 地 位 的 重要 
程度 ,展现 出 其 他 节点 对 该 节点 的 依赖 程度 。 对 于 网 
络 中 一 个 广 点 i, 其 中 介 度 的 计算 公式 为 : 


gx(7) 


Cs(i) = 2 式 (14) 
Bi 


这 里 gy (让) 是 节点 对 j 和 上 之 间 , 经 过 市 点 i 的 最 
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短路 径 条 数 ,gj 是 连接 节点 j] 和 上 的 所 有 最 短路 径 的 
条 数 。 那 么 gj. (i) /gi 表示 节点 j,k 之 间 经 过 i 的 最 短 
路 径 条 数 占 j,k 间 总 的 最 短路 径 条 数 的 比例 。 

中 介 度 刻画 了 闻 点 在 网 络 中 的 重要 程度 ,反映 了 
节点 控制 网 络 内 部 通信 的 能 力 。 一 个 节点 的 中 介 度 越 
大 ,该 节点 的 位 置 就 越 接近 与 整个 网 络 中 央 , 即 该 节点 
的 地 位 越 显 着 。 正 是 由 于 该 节点 相对 处 于 网 络 中心 位 
置 ,使 得 网 络 中 大 量 信息 将 要 通过 它 ,所 以 该 节点 对 整 
个 网 络 的 内 部 通信 控制 具有 重要 的 作用 ,节点 本 身 也 
显得 尤为 重要 。 此 外 ,中 介 度 还 可 以 反映 整个 网 络 的 
集中 化 程度 。 网 络 的 集中 化 程度 是 检验 复杂 网 络 是 否 
成 熟 的 重要 标志 ,如 果 整 个 网 络 的 中 介 度 较 高 ,那么 预 
示 着 该 网 络 的 成 熟 度 (maturity ) 也 达 了 到 相对 较 高 水 
平 ,整个 网 络 呈 现 稳 定 和 成 熟 的 状态 。 

由 于 整个 网 络 规模 太 大 ,难以 全 部 展示 ,为 了 帮助 
理解 ,本 文 给 出 了 基于 数据 科学 语料库 中 100 篇 语 料 
的 两 个 小 规模 网 络 ,并 将 编制 的 . net 格式 文件 导入 Pa- 
jek 软件 绘制 数据 科学 实体 网 络 示例 图 。 图 7 给 出 了 
由 学 历 要 求 专业 要 求 、 经 验 要 求 和 能 力 要 求 构 成 的 综 
合 数据 科学 实体 网 络 , 图 8 给 出 了 仅 由 软件 实体 构成 
的 单一 数据 科学 实体 网 络 。 

本 文 基于 已 经 构建 的 数据 科学 实体 网 络 ,以 软件 
实体 为 分 析 的 样 例 ,按照 中 介 度 降序 分 别 筛选 出 了 前 
20 的 数据 科学 软件 实体 , 即 数据 科学 招聘 软件 实体 中 
的 重要 关注 点 , 表 4 给 出 了 前 20 个 按 中 介 度 降序 排列 


的 数据 科学 软件 实体 。 
表 4 中 介 度 最 高 的 20 个 数据 科学 软件 实体 
中 介 度 排序 中 介 度 数据 科学 软件 实体 

0. 1429695540 SQL 

2 0.1305702550 Oracle 
a 0. 1045620190 MySQL 
4 0. 0843379040 Hadoop 
3 0. 0842922990 java 

6 0. 0767000540 Excel 

这 0. 0643107090 C 

8 0. 0616286510 Python 
9 0.0385161950 Linux 
10 0.0338845110 Spark 
11 0.0313447170 office 
12 0.0275843660 R 

13 0. 0241636320 SAS 
14 0. 0240613100 SQLserver 
1 0. 0209335340 TET 
16 0.0200576790 IT 

17 0.0193000400 BI 

18 0.0162309970 ETL 
19 0. 0152836320 SPSS 
20 0.0131819250 matlab 
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图 8 单一 数据 科学 实体 网 络 示例 


从 表 4 可 以 看 出 ,根据 中 介 度 值 大 于 0.1 进行 得 
选 ,得 到 排名 前 三 的 软件 实体 为 "SQL ”” Oracle” 和 
“MySQL”。 这 3 个 实体 要 么 是 数据 库 要 么 是 进行 数据 
库 操 作 的 标准 语句 ,是 进行 数据 分 析 和 挖掘 的 基础 和 
前 提 , 其 排名 非常 靠 前 也 充分 说 明了 要 进行 数据 分 析 
或 者 挖掘 首要 必须 完成 对 数据 的 存储 和 检索 , 而 
“SQL 位 于 第 一 位 也 充分 说 明了 这 一 点 。 在 最 近 三 年 
内 ,大 数据 得 到 了 快速 发 展 ,与 大 数据 相关 的 技术 在 数 


据 科学 的 招聘 中 体现 得 也 比较 充分 ,在 前 20 的 软件 实 
体 中 ,与 大 数据 密切 相关 的 技术 就 涉及 到 “Hadoop” 
“Spark "这 两 个 实体 ,并 且 ” Hadoop ”在 所 有 的 软件 实体 
当中 排名 位 于 第 四 。 这 一 数据 在 一 定 程 度 上 说 明了 数 
据 科学 与 大 数据 之 间 存 在 着 非常 密切 的 关系 ,同时 也 
说 明了 在 后 续 的 数据 科学 课程 中 要 增加 与 大 数据 技术 
相关 的 教学 内 容 。 与 编程 语言 相关 的 前 20 个 实体 主 
要 涵盖 了 “Java"”“C”“Python”“R” 和 “matlab” 等 5 个 ， 
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而 “Python" 在 数据 科学 招聘 中 是 异军突起 的 一 种 编程 
语言 ,因为 这 一 语言 非常 适合 于 处 理 数据 尤其 是 非 结 
构 化 数据 ,所 以 无 论 是 在 后 续 的 课堂 学 习 还 是 职业 培 
训 中 , 均 应 结合 具体 的 数据 处 理 任务 强化 对 这 一 程序 
设计 语言 的 教学 。 数 据 科学 与 统计 学 有 着 千 丝 万 缕 的 
联系 ,在 一 定 程度 上 统计 学 支撑 了 数据 科学 的 整个 框 
架 和 体系 ,而 在 前 20 个 实体 中 ,“SPSS” 和 “SAS” 这 两 
个 实体 的 入 选 也 充分 说 明了 这 一 点 。 昌 然 office 是 最 
基础 的 办 公 软 件 , 但 在 数据 的 处 理 和 呈现 上 有 其 独特 
之 处 ,而 “Excel”“PPT” 和 “office” 等 软件 实体 的 人 选 ， 
有 力 地 证 明了 这 一 点 ,因为 数据 科学 的 职位 中 ,不 仅 涉 
及 到 模型 的 构建 .算法 的 设计 这 些 相 对 技术 难度 比较 
大 的 职位 ,也 涵盖 了 初级 数据 分 析 师 和 数据 标注 师 这 
些 技 术 难度 一 般 但 需求 量 较 大 的 职位 ,而 这 些 职位 所 
合击 的 软件 工具 主要 集中 于 “Excel”“PPT" 等 常用 的 
软 御 工具 上 。 受制 于 论文 的 篇 幅 , 本 文 只 给 出 了 排名 
居 加 前 20 的 软件 实体 在 数据 科学 实体 网 络 中 的 分 布 
情况 ,并 结合 相应 的 招聘 需求 对 典型 的 软件 实体 进行 
隐 绍 析 。 
©O 
本 

S 本文 所 研究 的 数据 科学 招聘 实体 自动 抽取 模型 对 
于 构建 与 数据 科学 实体 相关 的 知识 库 和 培养 数据 科学 
入 还 起 到 了 充当 基础 资源 的 作用 。 本 文 在 已 标注 的 数 
据 舟 学 招聘 实体 的 语 料 基础 上 ,通过 对 比 Bi-LSTM - 
CRE CRF 和 Bi-LSTM 这 3 个 模型 在 实体 招聘 上 的 整 
体 竹 能 ,不 仅 证 明了 深度 学 习 模型 在 序列 化 识别 任务 
上 网 优 越 性 能 ,而 且 最 终 确 定 了 由 Bi-LSTM-CRF 所 构 
建 的 实体 识别 模型 为 数据 科学 招聘 实体 抽取 的 模型 。 
并 在 这 一 模型 的 基础 上 ,搭建 了 数据 科 招聘 实体 抽取 
平台 和 构建 了 基于 23 154 条 数据 科学 招聘 信息 的 实 
本 网 络 ,并 对 网 络 中 的 软件 这 一 实体 进行 了 分 析 。 在 
后 续 的 研究 中 ,一 方面 要 在 各 大 招聘 网 站 上 使 用 该 模 
型 进行 具体 的 应 用 推广 , 另 一 方面 结合 模型 的 整体 性 
能 表现 ,通过 融合 新 的 特征 改进 已 有 模型 的 精确 率 和 
召回 率 ,从 而 提高 数据 科学 招聘 实体 自动 抽取 模型 的 
性 能 。 
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os 《网 络 用 户 与 网 络 信息 服务 》 书 讯 


网 络 化 演进 ,聚焦 网 络 用 户 的 需求 与 行为 特点 ,以 图 书 情报 领域 的 发 展 变化 现状 与 趋势 为 视角 ,以 网 络 信息 服务 为 主 


线 ,探讨 图 书 情报 服务 转型 变革 的 总 体 战 略 与 策略 。 该 书 总 结 研究 了 国内 外 网 络 信息 服务 的 研究 成 果 与 应 用 进展 , 比 


， 

: 较 系 统 地 论述 了 数字 化 网 络 化 环境 下 图 书 情报 服务 需要 致力 于 解决 的 各 方面 主要 问题 。 该 书 内 容 全 面 , 资 料 丰 富 , 理 
论 与 实践 相 结合 ,致力 于 推动 图 书 情报 机 构 加 快 适 应 网 络 用 户 对 网 络 信息 服务 的 新 需求 ,加 快 提升 图 书 情报 人 员 网 络 
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